OpenMendel系列-MendelIHT包

MendelIHT 原文戳我

参考文献戳我

论文要点

  • 现代GWAS中n × p (n=samples, p=variants)的矩阵往往需要数百Gb级别的磁盘空间进行压缩存储

  • 传统GWAS侧重于单位点测试(SNP-by-SNP), 其优缺点为:

优点:

  • 简单

  • 可解释性强

  • 计算复杂度低

  • 有效利用计算机内存

缺点:

  • 假设不合理: 假设所有SNP都具有独立效应

  • 错过效应值较低的因果SNP, 遗传力被低估

p >> n时, 通常假设与表型相关的variant数目(k)远小于n.WHY?

  • 对全基因组所有变异进行多元回归的好处:统计效力强, 考虑SNP之间的相关性, 允许对相互作用进行建模, 前提是找到真正关联的SNP的情况下。

  • 多元回归的实现的简约方法是通过对损失函数进行惩罚, LASSO是其中比较受欢迎的方法, 但其缺点也突出:

    1. \(L_1\)正则倾向于将参数缩小到0;

    2. 必须调整λ以达到给定模型大小;

    3. λ的确定要通过交叉验证, 计算代价高;

    4. 最重要的, 惩罚导致的收缩留下了许多无法解释的特征方差, 引入假阳性。

  • 迭代硬阈值法(iterative hard thresholding, IHT)可以有效降低假阳性

MendelIHT.jl的主要创新点

  • 传统的IHT侧重于正态和逻辑回归, MendelIHT.jl将其扩展到广义线性模型

  • 引入了双稀疏回归,可以从LD中选择因果SNP

  • 支持在IHT中加入预设的SNP权重, 让用户将先验知识引入稀疏投影

延伸阅读:BLINK 论文原文